SPSS数据准备2 – 初始数据检查

By Ruben Geert van den Berg 在 数据准备SPSS Data Preparation - Case Count

1. SPSS个案计数和变量计数

(概述和数据文件请见此处)

对于任何数据文件,我们首先要知道的是它的维度:它包含多少个案和多少个变量? 要快速进行个案计数,请在数据视图 (data view)中选择任何单元格,然后按 CTRL + ![Keyboard arrow](./2313137fe6e97a392a2ad09b755fad.png) 快捷键 (shortkey) 。 或者,只需使用滚动条一直向下滚动。

我们的文件包含601个个案。 在变量视图 (variable view)中应用相同的方法告诉我们,我们有13个变量。 鉴于我们可能会在某个时候删除一些个案和/或变量,我们个人喜欢在我们的语法文件 (syntax file) 中添加关于原始维度的注释。 下面的屏幕截图显示了它的样子。

SPSS Data Preparation - Data Dimensions as Comment in Syntax File

2. 唯一个案标识符变量

(概述和数据文件请见此处)

数据文件可能具有也可能没有唯一个案标识符变量 (unique case identifier variable):一个对每个个案都有不同值的变量。 在某些情况下,两个(或更多)变量的组合可以达到此目的。

最好有一个唯一的标识符,原因有三:首先,如果您从数据中删除变量,因为它们看起来不相关,您以后可以决定将它们合并回来,如MATCH FILES 中所示。 其次,如果某个个案包含一些不寻常的值,您可以更正它,如果您可以处理这个 - 并且仅处理这个 - 个案。 第三,单个标识符可用于包含类似记录的各种数据源中。 如果是这样,在您的数据中拥有此标识符使您可以将(编辑的)数据与这些其他数据源合并。

我们的数据似乎包含 id 作为一个唯一的个案标识符。 但是我们如何才能真正确定它的值没有重复出现? 以下语法 (syntax) 通过使用 AGGREGATE 来做到这一点。

***1. 创建 cnt,保存 id 的频率。
**
aggregate outfile * mode addvariables
/break id
/cnt = n.

***2. 如果 cnt 仅包含 1,则 id 的每个值都出现一次,因此它是一个唯一的标识符。
**
frequencies cnt.

结果

SPSS Transformation Commands

此频率表告诉我们,此变量中唯一的取值是 1。 因此,我们确实有一个唯一的个案标识符。 否则,第二好的选择是在对数据进行任何其他操作之前创建一个。 下面的语法 (syntax) 显示了一种方法,使用数据视图 (data view) 中的轮廓编号,称为 $casenum

***创建唯一标识符(对于这些数据不是必需的)。
**
compute ident = $casenum.
execute.